Java EE 计划任务

python - 任何用于并行和分布式任务的 python 库？

我正在寻找一个可以在几台服务器上分配任务的Python库。该任务类似于单机中subprocess库可以并行化的任务。我知道我可以为此目的设置一个Hadoop系统。然而，Hadoop是重量级的。就我而言，我想使用共享网络磁盘进行数据I/O，而且我不需要任何花哨的故障恢复。在MapReduce的术语中，我只需要映射器，不需要聚合器或缩减器。Python中有这样的库吗？谢谢! 最佳答案尝试使用celery.Celeryisanasynchronoustaskqueue/jobqueuebasedondistributedmessagep

python 何用 section stackoverflow blockquote hadoop distributed-computing

hadoop - 如何使用flume创建任务自动定时从HDFS加载数据到HIVE？

我需要将数据从hadoop自动加载到hive，但我不想设置其他服务来执行此操作。我已经使用flume来收集我的日志了……那我该怎么办呢？flume是否可以执行命令(查询hive就像LOAD.....)？最佳答案抱歉，我来晚了一点，但实际上我已经整理了一个非常完整的示例，说明如何执行此操作并公开了所有细节。也许，它会帮助别人http://www.lopakalogic.com/articles/hadoop-articles/log-files-flume-hive/祝你好运! 关于h

hadoop flume section articles hive

hadoop - 允许多个 hadoop/EMR 任务在关闭前失败

我正在尝试在AmazonElasticMapReduce上使用hadoop，我有数千个maptask要执行。如果一小部分任务失败，我没关系，但是，亚马逊关闭了工作，当第一个映射器失败时，我丢失了所有结果。有没有我可以用来增加允许的失败作业数量的设置？谢谢。最佳答案这是hadoop的答案:Isthereanypropertytodefinefailedmapperthreshold要在EMR中使用上述设置，请查看:http://docs.aws.amazon.com/ElasticMapReduce/latest/Develope

hadoop 许多 section bootstrap amazon-web-services hadoop-streaming elastic-map-reduce

hadoop - map任务和reduce任务可以在同一个节点吗？

我是Hadoop新手，既然map节点和reduce节点之间的数据传递可能会降低MapReduce的效率，为什么不把maptask和reducetask放在同一个节点？最佳答案实际上，如果数据太“小”，您可以在同一个JVM中运行map和reduce。这在Hadoop2.0(又名YARN)和现在称为Ubertask中是可能的。来自伟大的“Hadoop:权威指南”一书:Ifthejobissmall,theapplicationmastermaychoosetorunthetasksinthesameJVMasitself.Thish

hadoop reduce section strong map

hadoop - 映射任务超时

我写了一个只有Map的作业，其中数据在经过一些处理后从一个HBase表写入另一个表。但是在我的映射器的setup方法中，我从一个文件加载数据，这比我的mapred.task.timeout配置花费更多的时间。我阅读了给出的解释here.我的问题是，1)在设置阶段的中间任务和任务跟踪器之间是否没有通信？2)如何更新状态字符串？？最佳答案只要有进度Job就不会超时进度报告很重要，因为Hadoop不会让正在取得进展的任务失败。以下所有操作都构成进度:•读取输入记录(在映射器或缩减器中)•编写输出记录(在映射器或缩减器中)•设置报告者的

hadoop 映射 section 射器报告者 mapreduce hbase

hadoop - 如何在终端调试 MapReduce 任务？

有没有一种使用终端模拟MapReduce作业的简单方法？我想知道是否有一种简单的方法可以在编写代码时调试它。最佳答案我习惯于使用Python进行Hadoop流式处理，但我相信该解决方案也可以复制到其他语言。所以，这就是我的解决方案:catinput_folder/*|pythonmap.py|排序|pythonreduce.py同样值得一提的是，您可以通过简单地运行来查看reducer接收到的值作为输入:catinput_folder/*|pythonmap.py|排序关于hado

何在 MapReduce section code python hadoop hadoop-streaming

Hadoop安装笔记1单机/伪分布式配置_Hadoop3.1.3——备赛笔记——2024全国职业院校技能大赛“大数据应用开发”赛项——任务2：离线数据处理

将下发的ds_db01.sql数据库文件放置mysql中12、编写Scala代码，使用Spark将MySQL的ds_db01库中表user_info的全量数据抽取到Hive的ods库中表user_info。字段名称、类型不变，同时添加静态分区，分区字段为etl_date，类型为String，且值为当前日期的前一天日期（分区字段格式为yyyyMMdd）。使用hivecli执行showpartitionsods.user_info命令，将结果截图粘贴至答案表.docx中对应的任务序号下；13、编写Scala代码，使用Spark将MySQL的ds_db01库中表sku_info的全量数据抽取到H

mdash 笔记 xff0c xff xff0 分布式大数据 hadoop

map - 分离 Hadoop Map 和 Reduce 任务

在一个3节点的hadoop集群中。我希望主人是1个节点。Map任务发生在一个节点，Reduce任务发生在1个节点。Map和reduce任务应该分开。可能吗？据我所知，两者一起运行。如果你能阐明一些观点，那就太好了。谢谢!-塞图最佳答案这不是最优的，因为必须始终将map输出复制到另一台服务器。但是您可以简单地在服务器上修改您的mapred-site.xml。mapred.tasktracker.map.tasks.maximum4Themaximumnumberofmaptasksthatwillberunsimultaneous

Hadoop Reduce section gt lt map

hadoop - 我应该永远使用 oozie 运行 MapReduce 任务吗？

我有一个mapReduce任务(https://github.com/flopezluis/testing-hadoop)，它读取文件夹中的文件并将它们附加到zip。我需要永远运行这个任务，所以当它完成处理它们时，它应该再次运行。我正在阅读有关oozie的信息，但我不确定它是否最合适，因为它可能对我的问题来说太大了。如果oozie是最好的解决方案。如果我编写一个协调器每10分钟运行一次，如果任务耗时超过10分钟，协调器等待再次运行该任务会怎样？任务说明文件夹总是一样的。有不同的zip文件，一个是关键。这个想法是逐步创建zip文件。我认为这比处理完所有文件后创建zip文件要快。这些文件包

MapReduce hadoop 协调器 section oozie

hadoop - Pig 为简单的 Group by 和 count occurrence 任务抛出错误

使用Hadoop的PIG-Latin从搜索引擎日志文件中查找唯一搜索字符串的出现次数。(clickheretoviewthesamplelogfile)请帮帮我。提前致谢。pig脚本excitelog=load'/user/hadoop/input/excite-small.log'usingPigStorage()AS(encryptcode:chararray,numericid:int,searchstring:chararray);GroupBySearchString=GROUPexcitelogbysearchstring;searchStrFrq=foreachGroup

occurrence hadoop code section excitelog apache-pig

129 130 131132133 134 135